新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。
来自主题: AI技术研报
7284 点击 2026-06-09 14:57
搜索
一个约 1B 参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9。训练成本约 1500 美元,16 块 H100 跑了不到两天。
来自加拿大蒙特利尔三星先进技术研究所(SAIT)的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型(TRM)。这个 TRM 有多离谱呢?一个仅包含 700 万个参数(比 HRM 还要小 4 倍)的网络,在某些最困难的推理基准测试中,
27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。
在AI领域数据和算力的军备竞赛中,AI从业者要么紧密跟随OpenAI等领先公司做进一步的应用开发,要么在Transformer机制日益显现局限之时探索新的路径。